当前的语言模型因单独从文本学习语言而没有单词及其含义之间的联系而受到批评。因此,已经提出了多模式训练,以通过提供缺乏联系来创建具有更好的语言理解模型的一种方式。我们专注于预先训练的多模式视觉和语言(VL)模型,这些模型已经有了他们的语言理解能力的一些结果。然而,评估这些模型的语言技能的一个尚未解决的问题是,没有建立的方法可以使它们在没有分发不确定性的情况下适应仅文本输入。为了找到最佳方法,我们研究并比较了将三种不同的预训练VL模型适应仅文本输入的七种可能的方法。我们对胶水和视觉属性规范(VPN)的评估表明,应注意将VL模型调整为零击文本任务,而模型对我们如何使其适应非零射击任务的敏感性不太敏感。我们还发现,适应方法对不同模型的性能有所不同,并且单形模型对应物与VL模型相同,无论适应如何,这表明当前的VL模型并不一定从其多峰训练中获得更好的语言理解。
translated by 谷歌翻译